在随机对照试验中的治疗效果(TE)估计的客观评估中的中心障碍是缺乏地面真理(或验证集)来测试其表现。在本文中,我们提供了一种新的交叉验证样方法来解决这一挑战。我们程序的关键洞察力是嘈杂(但不偏不倚)差异估计可以用作RCT的一部分上的地面真理“标签”,以测试在另一部分培训的估计器的性能。我们将这种洞察力与聚集方案相结合,借助跨统计强度的大型RCT,以判断估计估计估计潜在治疗效果的能力的端到端方法。我们在亚马逊供应链中实施的709个RCT评估我们的方法。在Amazon的AB测试中,由于响应变量的重尾性,我们突出了与恢复治疗效果相关的独特困难。在这种重尾的设置中,我们的方法表明,积极低档或截断大值的程序,同时引入偏差降低了足以确保更准确地估计治疗效果的方差。
translated by 谷歌翻译